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基于 语义 关系 约束 和 词语 关系 信息 的 句 向 量 研究 
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摘 要 : 针对 现 有 的 名 向 量 学 习 方法 不 能 很 好 的 学 习 关系 知识 信息 、 表 示 复 杂 的 语义 关系 ， 提 出 了 基于 PV-DM 模型 
和 关系 信息 模型 的 关系 信息 句 向 量 模 型 《RISV) ， 该 模型 是 将 PV-DM 模型 作为 名 向量 训练 基本 模型 ， 然 后 为 其 添加 
关系 信息 知识 约束 条 件 ， 使 改进 后 模型 能 够 学 习 到 文本 中 词语 之 间 的 关系 ， 并 将 关系 约束 模型 RCM) 模型 作为 预 训 
练 模型 ， 使 其 进一步 整合 语义 关系 约束 信息 ， 最 后 在 文档 分 类 和 短文 本 语义 相似 度 两 个 任务 中 验证 了 RISV 模型 的 有 
效 性 。 实 验 结果 表明 ， 采用 RISV 模型 学 习 的 和 句 向 量 能 够 更 好 地 表示 文本 。 
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Sentence vector based on semantic relationship constraints and word relationship information 


Xia Xiaogiang, Shao Kun 
lass (School of Computer & Information, Hefei University of Technology, Hefei 230009, China) 


Abstract: In view of the fact that the existing sentence vector learning method can not well learn the relational knowledge 
= 和 information and express the complicated semantic relation, this paper proposed a relational information sentence vector model 


(RISV) based on the PV-DM model and the relational information model. This model used the PV-DM model as the basic model 


of sentence vector training, and then added the knowledge constraint of relational information to make the improved model can 


learn the relationship between the words in the text and uses the RCM model as Pre-training model to further integrate the 


information of the semantic relationship constraints, and finally validates the validity of the RISV model in two tasks: document 
classification and short text semantic similarity. The experimental results show that sentence Vectors learned by RISV model 
can better represent the text. 
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情感 词 集中 ,有 效 提高 了 特征 代表 词 的 情感 分 析 的 准确 性 。Q 

Liu 等 在 15 年 提出 SWE 模型 由， 该 模型 在 skip-gram 基础 上 组 

词 向 量 是 一 种 将 词 表 示 为 连续 向 量 的 技术 , 是 自然 语言 处 合 表示 成 不 等 式 约束 的 词语 间 的 关系 〈 同 义 ， 上 下 位 等 ) 。Xu 

里 中 的 一 个 重要 研究 课题 。 自 2013 年 Mikolov 等 人 叫 提出 了 等 人 外 则 基于 Skip-gram 模型 ， 提 出 融合 关系 知识 和 分 类 知识 
word2vec 模型 ， 词 向 量 在 POS TaggingP、 句 法 依存 分 析 B、 机 的 训练 框架 RC-NET。2016 年 Nguyen 等 人 09 党 试 在 Skip-gram 
器 翻译 由 以 及 情感 分 析 等 领域 取得 了 丰硕 的 成 果 。 在 大 部 分 的 ” ”模型 基础 上 加 入 词汇 对 比 信 息 共同 训练 ， 提 出 了 DLCE 模型 ， 
任务 中 ， 学 习 词 向 量 只 是 工作 的 第 一 步 ， 比 如 说 情感 分 析 ， 需 ”使 得 训练 得 到 的 词 向 量 能 有 效 识 别 同义词 和 反义词 。 除 了 基于 


0 引言 


要 用 学 习 到 的 词 向 量 有 效 的 表示 文档 ， 这 部 分 是 研究 工作 的 另 词 向 量 的 工作 ，Le 等 人 MM 在 word2vec 模型 的 基础 上 添加 了 

一 个 难点 。 paragraph id， 提 出 了 doc2vec 模型 ， 通 过 该 模型 可 以 直接 有 效 
国内 外 学 者 在 基于 词 向 量 的 基础 上 作出 了 许多 重大 贡献 。 的 学 习 文 本 名 向 量 。 

表明 等 人 品 在 word2vec 模型 的 基础 上 ， 结 合 TF-IDF 算法 用 来 名 向 量 常见 学 习 方法 有 求 单一 文本 词 向 量 的 平均 值 0, 利 

表示 文档 向 量 。 何 天 翔 等 人 [9 利用 大 量 语料库 以 及 同义词 集合 用 TF-IDF 算法 加 权 后 求 平均 值 ， 对 词 向 量 进行 聚 类 03]， 以 及 


构建 情感 词 网 ， 对 短文 本 特征 稀疏 、 信 息 量 不 足 等 问题 ， 提 出 使 用 doc2vec 模型 等 。 这 些 方法 在 一 般 的 学 习 任务 中 可 以 得 到 
了 结合 情感 词 网 的 中 文 短 文本 情感 倾向 分 析 。 苗 祥 等 人 [将 特 ” 不 错 的 结果 ， 但 却 没 有 考虑 到 文本 之 间 语 义 信息 关系 和 词汇 信 
征 代表 词 的 同 义 特 征 词 所 对 应 的 情感 词 加 入 到 该 特征 代表 词 的 息 ， 近 些 年 ，Liu 等 人 先后 提出 了 SWE 模型 名 以 及 DLCE 模型 
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09, 这 些 模 型 尝试 在 word2vec 模型 基础 上 , 以 不 同 的 方式 融合 
不 同 的 结构 化 信息 ， 取 得 一 定 的 效果 。 如 DLCE 模型 在 同 义 反 
义 识 别 任务 上 表现 优异 ， 但 在 词 向 量 的 语义 相似 性 和 语义 相关 
性 评估 任务 中 ， 在 不 同 数据 集 上 表现 差异 较 大 (SIMLEX999， 
MEN3000，WS353 ) ， 模 型 稳定 性 不 足 ，SWE 模型 在 词 向 量 芯 
语义 相似 性 和 语义 相关 性 评估 任务 上 有 提升 ， 但 在 同 义 反 义 识 
别 任务 上 却 表现 不 佳 。 本 文 在 此 基础 上 ， 借 鉴 了 SWE 模型 添 
加 词语 关系 信息 和 RCM 模型 9 中 关系 约束 的 思想 提出 了 本 文 
的 关系 信息 句 向 量 模型 (RISV ) 训练 模型 , 与 SWE 模型 相 比 ， 
本 文 提出 的 RISV 模型 在 PV-DM 引入 了 关系 信息 , 并 用 关系 约 
束 (RCM) 模型 作为 预 训练 模型 ， 所 以 能 够 一 定 程度 的 表达 复 
杂 的 语义 关系 。 最 后 ， 在 文档 分 类 和 短文 本 语义 相似 度 这 两 个 
任务 中 对 模型 进行 了 验证 。 


1 ”学 习 句 向 量 


1.1 RWE 模型 

知识 图 谱 中 的 知识 ， 一般 表 示 为 三 元 组 (hyr,t) 的 形式 ， 其 中 
T 表 示 t 关 联 的 多 种 不 同 的 关系 ,例如 样本 (Vegetable，hyponymy， 
tomato)。 在 提取 三 元 组 数据 后 ， 需 要 对 词语 的 关系 建立 表示 。 
例如 对 于 三 元 组 (hbD， 若 三 元 组 是 事实 信息 ， 则 有 ht+rs*t， 即 
htr 对 应 向 量 应 与 { 更 相近 ， 该 模型 称 为 关系 信息 模型 。 模 型 的 
输入 层 是 目标 词 t 的 对 应 的 三 元 组 集合 (h,nt)， 投 影 层 做 了 恒 等 
投影 ， 输 出 层 是 在 语 料 中 预测 目标 词 。 


在 CBOW 语言 模型 训练 中 , 加 入 短语 关系 等 信息 , 使 得 学 
习 获 得 的 词 向 量 能 够 很 好 地 表示 丰富 的 语义 关系 。 在 此 基础 上 
可 以 得 到 关系 信息 
embedding) 。 目 标 函 数 如 下 : 


\ 词 向 量 模型 (relational information word 


> 
Ls= >》 (ogpw [wie)+y > logpw|h+r) 1) 
i=l 


reR, 


其 中 : 函数 前 半 部 分 是 CBOW 模型 目标 函数 , 后 半 部 分 是 关系 
信息 模型 目标 函数 ，/ 是 调 权 参数 ，C 是 训练 语料库 的 大 小 。 


p(w | 有 十 7) 表示 已 知 目标 词 与 词 h 之 间 存 在 关系 +, 预测 


标 词 为 Ww; 的 概率 ， 有 具体 计算 公式 如 下 : 


T 
exp(e 0,, ) 
pw |h+7) = htr 


a (2) 
pe nb (Ch+r 0,) 


其 中 ; @,,, 表示 向 量 e; 和 e, 的 线性 加 和 , 即 €),, 二; 十 @,， 


0 表示 词 Wi; 的 分 类 参数 。 
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1.2 RISV 模型 

文本 中 词语 之 间 有 具有 很 多 复杂 的 语义 关系 , 例如 上 下 位 关 
系 ， 在 “ 猫 坐 在 桌子 上 的 垫子 里 ”这 个 文本 中 ， 
在 ”的 上 位 词 ，“ 桌 子 ” 是 “ 坐 在 ”的 下 位 词 ， 这 里 “ 坐 在 ” 
的 下 位 词 除 了 “桌子 ” 外 ,还 有 有 “垫子 ”等 具有 相同 上 位 
词 的 “桌子 ”和 “垫子 ”， 从 某 种 意义 上 来 说 应 该 是 相似 或 者 
相关 的 ， 但 Word2vec 模型 只 是 利用 大 规模 语料库 中 的 词语 进 
行 训练 ， 所 得 的 词 向 量 只 能 学 习 到 文本 上 下 文 信息 ， 却 无 法 学 
习 到 这 种 词语 间 的 关系 ， 所 以 其 他 复杂 的 语义 关系 也 很 难 充分 
表达 。 

关系 信息 词 向 量 模型 (RWE) 主要 是 基于 CBOW 模型 来 

学 习 词 向 量 ， 对 于 一 些 任务 来 说 ， 仍 需要 将 训练 好 的 词 向 量 

换 为 句 向 量 ,所 以 本 文中 将 关系 信息 模型 引入 到 PV-DM 模型 ， 
得 到 关系 信息 句 向 量 模 型 (relational Information sentence 
Vector,RISV) ，RISV 模型 目标 函数 如 下 : 


Lg 猫 2 


Ds et |Coni(wi®,d)+y Ylogp(w |h+r)) (3) 


i=l deD yeR, 


其 中 : d 表示 paragraph id 向 量 , D 表示 paragraph id 向 量 空间 


cont(w™, QI) 表示 词 wi 的 上 下 文 以 及 paragraph id 向 量 。 


| RISV 目标 函数 进行 优化 ， 则 对 
于 样本 Cuwi) 来 说 , 如 果 u 的 目标 词 满 足 条 件 E 视 为 正 样本 ， 
通过 负 采 样 的 其 他 词 成 为 负 样本 。 则 指示 函数 为 


使 用 Negative Sampling 对 


dw l={0 
w, |u (4) 
wbE 
对 于 RISV 目标 函数 的 求解 可 以 分 为 前 半 部 分 和 后 半 部 分 ， 


则 前 半 部 分 函数 为 


Le ot en d)) (5) 


deD i=l 


使 用 随机 梯度 下 降 算法 对 其 进行 求解 可 得 


0,=0,+n(6w, |u)—o(Xi0,))X, (6) 


Vw)=V(w) je |W-o(X%0,)0, 7) 


J=2 


其 中 : 


和 ,表示 词 向 量 的 和 或 者 由 词 向 量 连接 成 ， 


oO(X) 二 exp{X}/(1 十 eXp{X}) ，7 为 调 权 参 数 , V(w) 为 句 向 


lm 
5 


LL ;函数 中 (4) 式 中 条 件 E 为 是 否 为 目标 词 。 
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C 

Las > logPpOw |h+7) (8) 
i=l YeR, 

同 理 ， 采 用 随机 梯度 下 降 算法 进行 求解 可 得 : 
0,=0, +a(6(w, |u)—o(er,,0,)e,,, (9) 
e, =e, + (6wW|u) -olen,0,)0, uo) 

ueU 
e, = toa (OO | 四 =-c(e 2))0， (11) 
ueU 
其 中 : U 表示 关系 信息 集 ，Q 表示 调 权 参 数 ，L, 函数 中 式 


(4) 中 条 件 E 为 是 否 满足 关系 信息 身 


则 e,，， 更 新 可 以 由 公 


nti 
o 


式 Cp ce, 下 e, 完成 。 


RISV 模型 是 在 dco2vec 模型 训练 中 , 引入 了 关系 信息 知识 作为 
监督 ,共享 词 向 量 ， 从 目标 函数 来 看 ,PV-DM 模型 与 关系 信息 
模型 线性 组 合 ， 二 者 都 对 句 向 量 更 新 有 着 一 定 影响 ， 调 权 参 数 
/平衡 二 者 关系 ， 最 终 使 用 随机 梯度 下 降 算法 不 断 优 化 参数 ， 
得 到 最 优 解 。 
与 RWE 模型 相 比 ， 本 文 提出 的 RISV 模型 可 以 直接 训练 
出 句 向 量 , 省 略 了 词 向 量 到 句 向 量 转换 的 过 程 。 男 外 ，RISYV 模 
型 添加 了 paragraph id 信息 ， 被 用 来 记忆 当前 文本 或 文章 主题 
中 漏 掉 的 信息 ， 因 此 造成 信息 损失 较 小 ， 在 情感 分 析 等 任务 中 
相对 于 RWE 等 模型 来 说 更 具 优 势 。 
1.3” 预 训练 
在 深度 学 习 中 ， 模 型 预 训 练 起 着 重要 作用 [15]。 例 如 ， 在 
Yu M[14] 的 工作 中 使 用 了 CBOW 模型 等 进行 预 训练 , 取得 了 很 
好 的 效果 。 受 YuM 等 工作 的 启发 ， 本文 使 用 RCM 模型 进行 预 
训练 。 


Sr 


主要 思想 为 假设 Rw 为 单词 w 在 关系 集 R 中 的 唯 
目标 是 最 大 化 关系 语料库 N 中 全 部 单词 关系 的 和 : 


1 N 
po > logpOw| wi) 


i=] weR,, 
i 


表示 。 


(12) 


其 中 PCWw|w) =exp(X"V,)/ >,exp(Xn Vs), i 


w 


别 表示 输入 与 输出 的 词 向 量 。 这 个 模型 被 称 为 RCM 模型 。 通 
过 RCM 模型 的 预 训练 ， 然 后 将 预 训练 词 向 量 作为 RISV 模型 
的 输入 ， 某 些 参数 作为 RISV 模型 的 初始 值 。 在 本 文中 ，RCM 
模型 可 以 理解 为 一 种 特殊 的 先 验 分 布 带 来 的 正则 化 , 有 别 于 Ll 
与 L2 正则 化 ， 这 种 正则 化 项 和 semi-superviesed 以 及 early 
stopping 的 原理 比较 类 似 。 最 终 的 实验 效果 是 给 RISV 模型 关 
系 信息 的 一 种 补充 ， 为 模型 增加 了 关系 约束 知识 。 


2 ”实验 与 结果 分 析 


实验 数据 文本 语 料 来 自 维基 百科 ， 扑 取 数 据 后 ， 对 数据 进 
行 去 除 超 链接 和 中 间 数 据 ， 将 数字 用 数字 单词 代替 等 预 处 理 。 
预 处 理 后 总 共有 一 亿 个 左右 单词 ， 然 后 筛选 出 出 现 超过 五 次 的 
单词 ， 组 成 包含 202363 个 单词 的 语料库 。 训 练 RCM 模型 使 用 

“词汇 版 本 的 PPDB (没有 短语 ) 语料库 ， 然 后 科 选 出 在 文本 
语料库 出 现 的 关系 对 , 然后 删除 重复 的 关系 对 , 例如 , 如 果 <X,Y> 
包含 在 PPDB 中 ， 则 删除 <YX> 关 系 对 。 三 元 组 语 料 来 自 
Freebase， 用 于 关系 信息 模型 的 训练 。 有 具体 信息 如 表 1 所 示 。 


数据 来 源 词 库 测试 集 
文本 语 料 维基 百科 202363 
PPDB 语 料 PPDB 57829 1583 
三 元 组 Freebase 69023 1657 


实验 数据 部 分 示例 如 表 2 所 示 。 


表 2 实验 数据 部 分 实例 


数据 示例 


Anarchism is a political philosophy that advocates self- 


governed societies based on voluntary institutions.These 
文本 语 料 。 are often described as stateless societies, although Several 
authors have defined them more specifically as institutions 
based on non-hierarchical free associations. 
<planning,plans>,<monitoring,monitor>, 
PPDB 语 料 
<seemed,suggested>,<pyramidal,pyramid> 
<The Trail Blazer,is-a,TV Episode>, 
<The Trail Blazers,Country of origin, United States of 
America>, 


<Playing Guitar,is-a, Book>, 


<Playing Hardball,is-a,TV Episode> 


2.1 文档 分 类 任务 
2.1.1 实验 数据 

测试 语料库 来 自 Reuters Corpus,Volume IIRCV1)09， 该 语 
库 有 806791 个 手动 分 类 好 的 新 闻 ， 共 有 三 个 大 的 分 类 目录 ， 
括 主题 ， 工 业 和 地 区 。 本 文 主要 针对 主题 这 个 目录 的 分 类 ， 
录 包 括 四 个 主题 ， 分 类 为 C，E，G 和 M， 其 中 C 表示 公 
或 工业 类 ,E 表示 经 济 类 ,G 表示 政府 类 以 及 M 表示 市 场 类 。 
过 简略 的 处 理 后 详细 信息 如 表 3 所 示 。 


台 开 座 


中 


表 3 文档 分 类 测试 语料库 信息 


类 别 训练 集 测试 集 
C 6000 1000 
E 1000 500 
G 3000 1000 
M 3000 1000 
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2.1.2 实验 说 明 


文档 分 类 任 


务 主要 是 对 语料库 中 的 文档 进行 分 类 ， 


可 知 


总 


总 体 分 为 两 个 部 分 ， 分 别 为 训练 集 以 及 测试 集 ， 训 练 集 用 
另外 ， 在 训练 中 ， 
具体 实验 过 程 如 图 


型 训 


练 外 


练 ， 测 试 集 测 试 实验 分 类 结果 ， 
中 分 出 部 分 作为 作为 验证 集 。 


pu 


Da 


训练 中 , 加 入 关系 信息 


doc2vec 模型 息 作 为 监督 


， 实 验 数据 总 共 分 为 四 类 ， 分 别 为 C，E，G 和 M， 语 米 


语 
会 在 训 


1 所 示 。 


1 可 知 ， 文 档 分 类 任务 分 为 学 习 句 向 量 和 文档 分 类 两 个 阶 
段 ， 学 习 句 向 量 阶段 核心 是 RISV 模型 训练 ，RISV 模型 是 在 
信息 全 二 者 共享 词 


夏 小 强 ， 等 : 


Ch 
基于 语 人 


合作 ; 
中 的 


a i 


RISV 


RISV + 预 训练 


72.12 73.21 72.21 72.94 72.54 


72.26 73.29 72.34 72.97 72.63 


从 表 3 中 可 以 看 出 ， 本 文 提出 的 RISV 模型 在 C，E 和 M 


类 别 


有 类 别 汇总 的 分 类 中 效果 
j 预 训练 ， 从 实验 数据 中 可 以 看 出 ， 


使 ) 


2.2 短文 本 语义 相似 度 任务 


2.2.1 实验 数据 
短文 本 语义 相 


向 量 ， 实 际 训练 中 ， 调 权 参 数 /为 0.12 时 ， 实 验 表现 最 佳 。 
语料库 中 的 文档 会 在 第 一 阶段 


文档 分 类 任务 中 ， 首 先 ，RCV1 i 


在 


训练 出 句 向 量 ， 然 后 ， 学 习 到 的 句 向 量 和 相应 的 类 别 会 组 成 类 


似 <data,label> 形 


式 的 数据 对 做 为 SVM 分 类 器 的 输入 ， 最 后 在 


测试 集 对 模型 进行 验证 , 验证 方法 为 给 定 一 组 数据 <x,y>， 如果 


SVM 分 类 器 预测 类 
失败 ， 


别 y' 与 y 相同 判定 


待 训练 文档 | 


a 


Ee 过 涛 停留 词 ， 映 
射 词 向 量 


M2 


分 类 正确 ， 反 之 ， 判 定 
完成 所 有 测试 后 ， 汇 总 计算 预测 准确 率 。 


待 测试 文档 


-一 ~ 


学 习 句 向 量 RCM 模 型 预 训练 


v 


训练 RISV 模 型 


文档 分 类 任务 


文档 类 别 


图 1 文档 分 类 任务 流程 图 


2.1.3 实验 结果 


常见 的 文档 分 类 方法 有 基于 word2vec 模型 的 平均 以 及 


tf idf 等 ， 基 于 doc2vec 模型 以 及 使 用 RWE 模型 
本 文 在 RCV1 语料库 上 进行 测试 ， 


而 通过 平均 以 及 tf idf 等 。 


训练 词 向 量 进 


测试 标准 为 准 
验证 。 测 试 结果 如 表 4 所 示 。 


表 4 实验 结果 


确 率 , 分 类 模型 为 SVM, 验证 方式 使 用 


五 分 交叉 


准确 率 (%) 
模型 

C E G M ”全 部 

Word2vec+ 平 均 67.56 69.23 71.25 65.32 68.21 
Word2vec+tf idf 69.26 69.56 70.24 68.67 69.41 
Doc2vec 70.35 70.67 69.25 71.26 70.34 
RWE+ 平 均 71.25 72.34 71.21 72.39 71.72 
RWE+tf idf 70.35 72.53 72.36 72.25 71.77 


Si 


以 度 任务 使 
来 做 短文 本 语义 相似 度 的 验证 0 。 总 


微软 语 料 


对 ， 每 个 短文 对 都 用 


二 进 


等 的 短文 本 对 有 3 900 个 , 不 相 


中 4 076 个 进行 训练 ， 


2.2.2 实验 说 明 


短文 本 语义 相似 度 任务 是 计算 ; 
如 “只 有 英特尔 公司 的 股 ， 
的 收益 率 较 低 ”语义 是 相似 的 ， 


至 近 


义 是 不 相似 的 。 实 验 数据 使 | 
两 个 短文 本 ， 
使 用 二 进 制 表示 , 1 表示 两 


1,540 亿美 元 ”和 “去 年 12 月 ， 


1 725 个 进行 测试 。 


制 形式 来 判断 语义 是 否 相等 。 语 
等 的 短文 本 对 


个 文本 的 i 


中 分 类 效果 比 word2vec 以 及 RWE 等 方法 效果 要 好 。 在 所 
由 也 很 明显 。 另 外 ， 在 RISV 模型 中 
有 一 定 的 提升 效果 。 


库 079, 该 语料库 常 被 
5 801 个 短文 本 


义 相 


1901 个 , 用 划 


在 义 相似 度 。 例 


息 收 益 率 较 低 ”和 “只 有 英特尔 0.3% 


“去 年 12 月 , 他 预计 增长 5.3% 
他 预测 增长 率 为 5%” 语 
微软 语料库 ， 其 数据 形式 为 给 定 
给 出 两 个 文本 语义 是 否 相 似 的 判定 结果 ， 结 果 
个 短文 本 语义 相似 , 0 表示 


两 个 短文 


本 语义 不 相似 。 利 ) 
为 了 三 


二 分 类 问题 ， 具 体 实验 过 程 如 图 


待 测试 文档 


微软 语料库 ， 短 文本 语义 相似 度 任务 转换 
2 所 示 。 


A 
测试 

v Ky 
Wp ~ La 学 习 句 向 量 一 训练 > 分 类 器 
- (SVC) 

ee 
图 2 短文 本 语义 相似 度 任务 示意 
由 图 2 可 知 ， 在 短文 语义 相似 度 任务 中 ， 首 先 ， 微 软 语 料 


测试 集 测试 实验 结果 ， 


库 中 的 文档 会 被 表示 为 句 向 量 


测试 方法 为 给 定 一 


之 ， 判 定 不 相 


2.2.3 实验 结果 


旦 ， 然 后 ， 学 习 到 的 句 向 量 会 被 添 
加 标签 0 和 1，1 表示 语义 相似 ，0 表示 语义 不 相似 。 最 后 使 用 
组 数据 <string,label>， 
如 果 SVC 分 类 器 预测 相似 度 p_label 与 label 相同 判定 相似 , 反 


以 ， 完 成 所 有 测试 后 ， 计 算 预 测 相似 准 


a 


戎 率 。 


实验 使 用 的 评估 标准 是 准确 率 以 及 p(precision)，r(recall) 
以 及 Fi 值 ， 分 类 器 使 用 RBF 核 的 SVC 模型 ， 因 为 特征 空间 不 
一 定 是 线性 的 ， 验 证 方式 使 用 五 分 交叉 验证 。 
表 5 短文 本 相似 度 实 验 结果 
模型 准确 率 p r Fi 
Word2vec+ 平 均 0.6991 0.7123 0.8425 0.7719 


录用 稿 


Word2vec+tf idf «0.7012 0.7621 0.8521 0.8046 
Doc2vec 0.6929 0.7235 0.9137 0.8076 
RWE+ 平 均 0.7102 0.7426 0.8969 0.8125 
RWE+tf idf 0.7201 0.7716 0.9123 0.8361 
RISV 0.7312 0.7821 0.9237 0.847 
RISV+ 预 训练 0.7319 0.7826 0.9314 0.8505 


从 表 5 中 可 以 看 出 ，RISV 模型 在 准确 率 以 及 p,xFi 值 上 
表现 比 word2vec 以 及 RWE 等 方法 好 。 在 预 训练 后 ， 实 验 表现 
能 够 得 到 进一步 的 提升 。 


2.3 总 结 
本 文 主要 从 两 个 任务 验证 RISV 模型 学 习 名 向量 的 有 效 性 ， 

任务 分 别 为 文档 分 类 和 短文 本 语义 相似 度 任 务 。 在 文档 分 类 任 
务 中 ， 实 验 结果 如 表 6 所 示 ， 对 6 个 模型 学 习 到 的 句 向 量 使 用 
SVM 分 类 器 进行 分 类 ， 包 括 对 RISV 进行 RCM 预 训练 处 理 。 
实验 结果 表明 RISV 模型 能 够 在 文档 分 类 任务 中 取得 了 很 好 的 
表现 。 在 短文 本 语义 相似 度 任务 中 , 实验 结果 如 表 4 所 示 , RISV 
模型 也 有 很 好 的 表现 ， 并 且 在 两 个 任务 中 ， 使 用 关系 约束 模型 
(RCM) 预 训练 ， 使 初始 词 向 量具 有 一 定 关 系 约束 信息 ， 并 在 

RISV 模型 中 有 一 定 的 体现 ， 从 而 对 实验 结果 起 到 帮助 。 


3 ”结束 语 


本 文 在 RWE 模型 的 基础 上 提出 了 RISV 模型 , 与 RWE 模 
型 相 比 ，RISV 模型 添加 了 文档 向 量 , 能 够 记忆 段落 信息 , 减少 
传统 从 词 向 量 到 句 向 量 转换 损失 的 信息 ， 在 一 个 文档 训练 过 程 
中 ，paragraph id 保持 不 变 ， 相 当 于 在 预测 单词 概率 时 ， 使 用 了 
整个 文本 的 语义 。 另 外 , RISV 模型 能 够 直接 学 习 得 到 名 向 量 ， 
不 需要 转换 。 但 相对 于 RWE 模型 以 及 一 些 基 于 word2vec 模型 
的 算法 相 比 ， 本 文 提 出 的 RISV 模型 增加 了 算法 复杂 度 ， 在 训 
练 中 对 数据 处 理 也 比较 繁琐 。 因 此 ， 下 一 步 需要 对 模型 进行 改 
进 ， 优 化 算法 复杂 度 。 
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